V2EX  ›  英汉词典

Inverse Document Frequency

释义 Definition(中文)

逆文档频率(常缩写为 IDF):信息检索与文本挖掘中的一个权重指标,用来衡量某个词在整个语料库中有多“稀有”。词越少见,IDF 通常越高;常用于 TF‑IDF 中,以降低常见词(如 the, is)的影响、突出更具区分度的词。(该术语在不同教材中公式可能略有变体。)

发音 Pronunciation(IPA)

/ˈɪn.vɝːs ˈdɑː.kjə.mənt ˈfriː.kwən.si/

例句 Examples

Inverse document frequency helps reduce the impact of very common words.
逆文档频率有助于降低非常常见词的影响。

In a TF‑IDF model, a term that appears in many documents receives a low inverse document frequency, so it contributes less to the final score.
在 TF‑IDF 模型中,一个词若出现在很多文档里,它的逆文档频率就会较低,因此对最终得分的贡献更小。

词源 Etymology(中文)

该术语由三部分组成:inverse(“反向的、倒数的”)+ document(“文档”)+ frequency(“频率”)。含义直观:不是看某词出现得多不多(频率),而是看它在多少文档中出现这一“文档频率”的反向/倒数意义,以强调稀有词的区分能力。该概念在信息检索领域早期研究中被系统化,用于改进关键词检索与相关性排序。

相关词 Related Words

文学与经典著作出现 Literary Works

  • Introduction to Information Retrieval(Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze)——在 TF‑IDF 与排序模型章节中讨论 IDF 概念与用法。
  • Modern Information Retrieval(Ricardo Baeza‑Yates, Berthier Ribeiro‑Neto)——介绍权重计算与 IDF 在检索模型中的作用。
  • Karen Spärck Jones(1972)相关论文(信息检索经典文献)——早期系统阐述“逆文档频率”思想并影响后续检索权重设计。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5762 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 01:58 · PVG 09:58 · LAX 18:58 · JFK 21:58
♥ Do have faith in what you're doing.